











가. 회귀 분석 나. 군집 분석 다. 감정 분석 라. 분류 분석




















구글의 인터넷에 연결된 네스트는 날씨와 기온 정보 그리고 집주인의 평소 온도 설정 data를 기반으로 사용자의 context를 인식해 자동으로 온도를 설정해 주며, 아마존의 dash라는 작은 장치는 wifi가 내장된 바코드 인식기로 상품에 인쇄된 바코드를 dash로 비추게되면 그 상품을 아마존 장바구니에 저장할 수 있도록 해준다. 나이키의 경우 애플과 제휴하여 스마트한 운동관리를 할 수 있도록 해주는 서비스로 자리 매김했다. 굳이 우리가 기계를 조작하지 않아도 모든 것이 사람을 위해 알아서 자동으로 돌아가는 세상이 이것이 보여줄 미래이다.




데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
















가. 데이터 이해에서 데이터 준비 단계로 갈 수 있다. 나. 모델링 단계에서 학습용/테스트용 데이터를 사용해 과소 적합을 확인한다. 다. 비즈니스 이해, 데이터 이해 간 피드백이 가능하다. 라. 평가에서 적합하면 바로 프로젝트 투입이 가능하다.








- 전사 분석업무를 별도의 분석 전담 조직에서 담당 - 전략적 중요도에 따라 분석 조직이 우선 순위를 정해서 진행 가능 - 현업 업무부서의 분석 업무와 이중화/이원화 가능성 높음












"단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지 표현하는 분포로 특정 기간 동안 사건 발생의 확률을 구할 때 사용된다"
"자기 자신의 과거자료로 설명하는 모형으로 백색잡음의 현재값과 자기자신의 과거값의 가중합으로 선형성을 표현하는 정상시계열 모형이다."




●●◆●●




가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형 나) 백색 잡음의 현재 값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형 다) 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ----, p차 등을 사용하나 정상 시계열 모형에서는 주로 1,2차를 사용함.
































































원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형 학습 및 구축을 위한 훈련용 자료로 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법이다.




















여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법.



